针对现有的语音增强方法对语谱图特征关联信息表达有限和去噪效果不理想的问题,提出一种双复数卷积注意聚合递归网络(DCCARN)的语音增强方法。首先,建立双复数卷积网络,对短时傅里叶变换后的语谱图特征进行两分支信息编码;其次,将两分支中编码分别使用特征块间和特征块内注意力机制对不同的语音特征信息进行重标注;再次,使用长短期记忆(LSTM)网络处理长时间序列信息,并用两解码器还原语谱图特征并聚合这些特征;最后,经短时逆傅里叶变换生成目标语音波形,以达到抑制噪声的目的。在公开数据集VBD(Voice Bank+DMAND)和加噪的TIMIT数据集上进行的实验的结果表明,与相位感知的深度复数卷积递归网络(DCCRN)相比,DCCARN在客观语音感知质量指标(PESQ)上分别提升了0.150和0.077~0.087。这验证了所提方法能更准确地捕获语谱图特征的关联信息,更有效地抑制噪声,并提高语音的清晰度。
针对使用双目结构光扫描仪获取的三维人脸点云,提出了一种特征融合网络(FFN)来完成人脸点云质量判断任务。首先,对三维点云预处理切割出人脸面部区域,使用点云和对应的二维平面投影得到的图像作为输入;其次,分别训练用于点云学习的动态图卷积神经网络(DGCNN)和ShuffleNet两个模块;然后,提取出两个网络模块的中间层特征进行特征融合,对整个网络进行微调;最后,使用三层全连接层,实现三维人脸点云的5分类(优秀、普通、条纹、毛刺、变形)。所提FFN的分类正确率为83.7%;分类正确率比ShuffleNet提升了5.8%,比DGCNN提升了2.2%。实验结果表明,加权融合二维图像特征和点云特征可以达到不同特征之间的优势互补效果。